Introduction

Ce projet est réalisé dans le cadre de la matière Visualisation de données enseignée à l’Université de Technologie de Troyes.

Notre analyse porte sur le World Happiness Report, une enquête annuelle qui récolte des données du monde entier pour indiquer comment les gens évaluent leur propre vie dans plus de 150 pays du globe. Le but de notre projet est de concevoir les meilleures visualisations possibles pour analyser les données du World Happiness Report et pour mettre en valeur les informations qui en découlent.

Lien des datasets

Le dernier dataset apporte des indicateurs supplémentaires sur ce qui est susceptible de provoquer le bonheur des populations (prix de la vie, soleil, obésité…). Cependant, il ne comporte uniquement les données de 2021, ainsi nous pourrons seulement le comparer avec le dataset qui comporte les données du World Happiness Report de 2021. Cela nous permettra d’apporter une nouvelle dimension à notre analyse.

Données

Le jeu de données que nous avons choisi d’étudier est issu d’une enquête de référence sur l’état du bonheur dans le monde. Il comporte des données de 2015 à 2021, et classe 155 pays selon leur niveau de bonheur. Il permet d’établir une corrélation entre différents critères (liberté, corruption, cadre de vie…) et le niveau de bonheur qui en découle.

Les jeux de données initiaux comportent 13 variables :

Variable Class Description
country character Nom du pays
region character Région à laquelle le pays appartient
hapiness rank integer Classement du pays sur la base du score du bonheur
hapiness score double Un indicateur mesuré chaque année en posant aux personnes de l’échantillon la question suivante : “Comment évaluez-vous votre bonheur sur une échelle de 0 à 10 où 10 est le plus heureux”
lower confidence interval double Intervalle de confiance inférieur du score de bonheur
upper confidence interval double Intervalle de confiance supérieur du score de bonheur
economy (GPD per capita) double La mesure dans laquelle le PIB contribue au calcul du score du bonheur
family double La mesure dans laquelle la famille contribue au calcul du score du bonheur
health (life expectancy) double La mesure dans laquelle l’espérance de vie a contribué au calcul du score du bonheur
freedom double La mesure dans laquelle la liberté a contribué au calcul du score du bonheur
trust (governement corruption) double La mesure dans laquelle la perception de la corruption contribue au score de bonheur
generosity double La mesure dans laquelle la générosité a contribué au calcul du score de bonheur
dystopia residual double “Résidu” correspondant à l’écart entre le modèle théorique et la réalité, auquel on ajoute un score de dystopie (score d’un pays hypothétique moins bien classé que tous les autre)

Par la suite, nous avons ajouté plusieurs données nécessaires à la création de cartes : les coordonnées géographiques des pays, ainsi que leur géométrie, afin de pouvoir colorier les surfaces des pays sur les cartes. Nous avons également ajouté une colonne indiquant le continent sur lequel se trouve chaque pays.

L’ensemble des données utilisées est disponible dans le dossier /data/

Ces données nous semblent pertinentes dans le cadre d’une analyse car :

  • Elles sont analysables dans le temps
  • Elles sont analysables géographiquement
  • Elles permettent d’étudier différents facteurs de contribution au bonheur en fonction des régions du monde, des cultures…

Plan d’analyse

  1. Analyse temporelle : Comment évolue le bonheur moyen au fil des années ? (en regroupant par région, en utilisant des facet charts pour visualiser les différentes années en même temps)

  2. Analyse factorielle : Le niveau de bonheur est-il directement corrélé à la liberté des individus ? ➡️ Question extensible à la richesse, à l’espérance de vie…

  3. Analyse géographique : Y’a-t-il des régions du monde moins heureuses que d’autres ? Pourquoi ? ➡️ Utiliser les facteurs de contribution du score pour mettre en évidence des causes de disparité

  4. Quelle combinaison de facteurs hauts entraîne une hausse du bonheur ? Quelle combinaison de facteurs bas entraîne une diminution de celui-ci ? (par exemple: avoir une espérance de vie élevée ET un PIB élevé ET un taux de liberté elevé implique-t-il nécessairement un haut niveau de bonheur, au-dessus d’un certain seuil ?)

Nettoyage des données

Le nettoyage des jeux de données est la première étape du projet, et certainement l’une des plus importantes. Nous nous en sommes rendus compte après avoir essayé de concevoir des graphiques avec les jeux de données bruts : nous avons été très vite restreints, d’un côté car il était impossible d’analyser les données temporellement car les données étaient séparées dans des datasets différents, et de l’autre parce que les noms des variables comportaient des espaces et différaient d’un dataset à l’autre.

Afin de pouvoir travailler efficacement, nous avons opéré le nettoyage suivant :

  1. Nous avons commencé par analyser tous les datasets pour voir si les données nommées de la même manière correspondent à la même chose (ce qui n’était pas toujours le cas). Parfois, la variable “freedom” d’un dataset correspondait à la variable “explained_by_freedom” d’un autre dataset.

  2. Nous avons ensuite renommé toutes les colonnes de tous les datasets de la même manière selon la convention définie ci-dessous.

  3. Nous avons fusionné l’ensemble des datasets de manière à travailler sur un seul tableau propre à l’aide de filtres par la suite. Nous avions au préalable ajouté une variable Year car cette donnée n’était pas fournie à l’intérieur des datasets et nous aurions mélangé toutes les données lors de la fusion des datasets.

  4. Afin de pouvoir travailler avec des cartes, nous avons été contraints d’ajouter pour chaque pays des données géométriques et GPS.

Convention de nommage des colonnes

  • Le nom des colonnes commence par une Majuscule
  • Les espaces sont remplacés par un underscore “_”

À savoir

Avant de commencer l’analyse détaillée du jeu de données, il y a quelques informations à connaître.

  1. Comme nous allons analyser le score de bonheur des régions, nous avons jugé utile de présenter la liste des pays de chaque région :
Region Countries
Australia and New Zealand Australia, New Zealand
Central and Eastern Europe Albania, Armenia, Azerbaijan, Belarus, Bosnia and Herzegovina, Bulgaria, Croatia, Czech Republic, Estonia, Georgia, Hungary, Kazakhstan, Kosovo, Kyrgyzstan, Latvia, Lithuania, Macedonia, Moldova, Montenegro, Poland, Romania, Russia, Serbia, Slovakia, Slovenia, Tajikistan, Turkmenistan, Ukraine, Uzbekistan
Eastern Asia China, Hong Kong, Japan, Mongolia, South Korea, Taiwan
Latin America and Caribbean Argentina, Bolivia, Brazil, Chile, Colombia, Costa Rica, Dominican Republic, Ecuador, Guatemala, Haiti, Honduras, Jamaica, Mexico, Nicaragua, Panama, Paraguay, Peru, Salvador, Suriname, Trinidad and Tobago, Uruguay, Venezuela
Middle East and Northern Africa Algeria, Bahrain, Egypt, Iran, Iraq, Israel, Jordan, Kuwait, Lebanon, Libya, Morocco, Oman, Palestinian Territories, Qatar, Saudi Arabia, Syria, Tunisia, Turkey, United Arab Emirates, Yemen
North America Canada, United States
Southeastern Asia Cambodia, Indonesia, Laos, Malaysia, Myanmar, Philippines, Singapore, Thailand, Vietnam
Southern Asia Afghanistan, Bangladesh, Bhutan, India, Nepal, Pakistan, Sri Lanka
Sub-Saharan Africa Angola, Benin, Botswana, Burkina Faso, Burundi, Cameroon, Central African Republic, Chad, Comoros, Congo (Brazzaville), Congo (Kinshasa),Djibouti, Ethiopia, Gabon, Ghana, Guinea, Ivory Coast, Kenya, Lesotho, Liberia, Madagascar, Malawi, Mali, Mauritania, Mauritius, Mozambique, Niger, Nigeria, Rwanda, Senegal, Sierra Leone, Somaliland región, South Africa, Sudan, Swaziland, Tanzania, Togo, Uganda, Zambia, Zimbabwe
Western Europe Austria, Belgium, Cyprus, Denmark, Finland, France, Germany, Greece,Iceland, Ireland, Italy, Luxembourg, Malta, Netherlands, North Cyprus, Norway, Portugal, Spain, Sweden, Switzerland, United Kingdom
  1. Qu’est ce que le bonheur ?

Avant d’étudier le World Happiness Report, il est important de définir ce qu’est le bonheur, car il peut s’agir d’une notion assez subjective.

Le bonheur est un état émotionnel agréable, équilibré et durable dans lequel se trouve quelqu’un qui estime être parvenu à la satisfaction des aspirations et désirs qu’il juge importants. Il perçoit alors sa propre situation de manière positive et ressent un sentiment de plénitude et de sérénité, sans stress ni inquiétude. Cette impression ressentie, indispensable à la survie des mammifères, est principalement le résultat de la production de sérotonine, réduisant la prise de risques et poussant ainsi l’individu à maintenir une situation qui lui est favorable. Le bonheur ne doit pas être confondu avec la sensation passagère de plaisir, issue principalement de la production de dopamine et non de sérotonine, mais représente au contraire un état d’équilibre, agréable, qui dure dans le temps.

Source : Wikipedia

  1. Est-ce que les données récoltées sont vraiment objectives ?

La principale question posée lors des enquêtes sur le bonheur est : “Imaginez une échelle avec des barreaux numérotés de zéro en bas à dix en haut. Le barreau du haut représente la meilleure vie possible pour vous, et le barreau du bas la pire vie possible pour vous. Sur quel barreau pensez-vous vous tenir à ce moment de votre vie ?”. Connue sous le nom d’échelle de Cantril, cette évaluation du bien-être, ainsi que la formulation précise de la question, constitue un standard commun pour les recherches sur le bien-être subjectif. En effet, le bonheur est une notion très subjective, et peut rapidement être faussée par les petits événements du quotidien. Si on pose la question à quelqu’un qui vient d’avoir un F en IF36 et qui a loupé son train pour rentrer chez ses parents à Toulouse, il y a beaucoup de chances que sa réponse soit influencée par ses troubles actuels. Pourtant, ils ne définissent pas le bonheur sur le long terme de l’individu, seulement il est difficile pour l’homme d’avoir une vision d’ensemble sur sa vie. Ainsi, l’échelle de Cantril semble être selon les experts la mesure la plus fructueuse du bonheur des individus.

Il faut donc garder à l’esprit que les données constituent une auto-évaluation des individus, ainsi elles sont par défaut subjectives. Cependant, elles tendent à être comparables grâce à l’échelle de Cantril, qui nous offre la mesure la plus universelle possible du bonheur.

Sources : Cairn.info & Our World in Data

I) Analyse temporelle : Comment évolue le bonheur moyen au fil des années ?

Cette première partie s’attachera à répondre à la question “Comment a évolué le bonheur au fil des années disponibles dans notre dataset (de 2015 à 2021) ?” Le déroulement de l’analyse nous amènera par la suite à diviser cette question en plusieurs sous-questions moins vastes.

Les visualisations réalisées

1. L’évolution du bonheur moyen dans le monde

Nous commencerons cette analyse par la visualisation du bonheur moyen au niveau mondial. La visualisation suivante est donc construite à partir de la moyenne globale des scores de bonheur de tous les pays chaque année.

Attention : On peut penser à première vue que la variation du bonheur moyen au fil des ans est importante. Il est important de prendre en compte l’échelle de l’axe des ordonnées : la variation est en réalité relativement faible, cette échelle ayant précisément été choisie pour qu’elle soit plus visuelle.

Ce graphique nous indique que le niveau moyen de bonheur dans le monde observe une tendance à la hausse, hormis une légère baisse en 2017.


Fait intéressant, on n’observe pas de baisse en 2020, année d’apparition du Covid-19 et de confinements généralisés dans de nombreux pays. On peut cependant s’interroger sur la représentativité de ce résultat au vu de la moyenne globale effectuée. Qu’en est-il lorsque nous nous plaçons à l’échelle des différentes régions du monde ?

2. L’analyse temporelle par région du monde

Cette seconde visualisation s’attache à répondre à la question plus précise de l’évolution du score de bonheur moyen par région, chaque ligne représentant les données d’une région. On transforme pour cela nos données de sorte à les regrouper par année ET par région, puis on calcule la moyenne du score de bonheur par région pour chaque année.


On peut donc observer l’évolution des scores de bonheur obtenus via ce regroupement par la visualisation suivante :

On a ajouté à ces données triées par région la moyenne mondiale. On peut donc effectuer simplement des comparaisons (en cliquant sur l’étiquette d’une région pour la faire apparaître/disparaître notamment) entre les différentes régions.

On se rend ici aisément compte qu’il ne fallait pas se contenter d’une moyenne globale, et qu’une moyenne par région nous montre des disparités bien plus importantes quant à l’évolution du niveau de bonheur dans le monde au cours des dernières années.

L’Asie du Sud, par exemple, observe une tendance à la baisse de son score de bonheur depuis 2017, tandis que l’Europe occidentale observe une tendance à la hausse sur cette même période.

Pour terminer sur cet aspect de l’évolution du score de bonheur, une visualisation est disponible sur notre application Rshiny pour détailler l’évolution du score à l’échelle de différents pays spécifiques:

[Insérer visu Rshiny]

3. Les pays dont le niveau de bonheur a le plus augmenté au cours des dernières années

La visualisation suivante s’attache aux pays ayant connu une hausse de leur score de bonheur entre 2015 et 2021. Elle représente les 10 taux d’accroissement de ce score les plus importants, en prenant le score de 2015 comme référence (un taux d’accroissement de 20% signifie donc qu’en 2021, le score de bonheur du pays est 20% plus élevé qu’en 2015).

EXPLICATIONS

Voyons maintenant le résultat pour les pays dont le score a le plus chuté entre 2015 et 2021 :

EXPLICATIONS

4. La répartition du niveau de bonheur des différentes régions du monde chaque année

Cet histogramme permet de visualiser le score de bonheur le plus présent dans une région. Le score de chaque pays est arrondi à l’entier le plus proche. Le graphique prend donc compte de chacun des scores de bonheur individuel de chaque pays, puis les regroupe par régions.

On remarque que la plupart des régions du monde voient le score de bonheur des différents pays répartis sur trois scores de bonheur différents. Cependant les scores de bonheur sont souvent consécutifs (3-4-5, 2-3-4,..) ce qui montre un lien évident entre le score de bonheur d’un pays et la région du monde dans laquelle il se situe. On constate aussi que depuis 2018, en l’Amérique latine le score de bonheur est à 6 pour une très grande majorité des pays. La région est donc assez équilibrée tout comme l’Australie et la Nouvelle-Zélande qui ont un score de bonheur a 7 depuis 2015. L’Europe de l’Est quant à elle est toujours la seule à avoir dans certains pays un score de bonheur à 8. Les régions les moins heureuses d’après les graphique sont depuis 2015, l’Afriquesubsaharienne et l’Asie du Sud. L’Afrique du Nord et de l’Est semble voir son score de bonheur augmenter au fil des années.

4. Le score de bonheur moyen par région chaque année

La visualisation suivante représente l’évolution au cours des années du score de bonheur moyen de chaque région. Non, ces graphes ne sont pas identiques ;) L’intérêt principal de ce graphique est de constater en un coup d’oeil que les scores moyens par régions restent très stables. Les régions ont été ordonnées par ordre décroissant, de la région possédant le meilleur score à celle possédant le moins bon.

5. Classement [à déplacer]

II) Analyse factorielle : Quels facteurs contribuent le plus au bonheur dans le monde ?

Les scores de bonheur précédemment mis en lumière s’expliquent par différents facteurs :

Le jeu de données possède des champs décrivant le niveau de contribution de chacun de ces facteurs au score du bonheur (tous les champs dont le nom commence par Explained_by_…).

En plus de ces champs, les jeux de données des années 2020 et 2021 possèdent des champs donnant des valeurs pour ces facteurs (Generosity, Freedom, Life_expectancy…).

Cette partie s’attachera donc à tenter d’observer les corrélations pouvant exister entre ces facteurs et un score de bonheur élevé ou non.

Pour chacun des facteurs étudiés, nous nous attendons à observer une corrélation linéaire positive : plus une population est riche, en bonne santé, libre, entourée et généreuse, plus elle est censée être heureuse, n’est-ce pas ?

Les visualisations réalisées

1. La corrélation de chaque facteur et le score de bonheur des pays du monde

L’ensemble des visualisations suivantes sont réalisées avec les données de l’année 2021, car ce sont les données les plus récentes que nous possédons à ce jour.

Commençons par le facteur “Liberté”: la visualisation suivante est un graphique en nuage de points, présentant en abscisse les valeurs enregistrées pour le facteur “liberté” et en ordonnée les valeurs de score de bonheur correspondantes pour chaque pays.

On constate immédiatement à la visualisation de ce graphique que le sentiment de liberté, comme on pouvait légitimement s’y attendre, est bien corrélé positivement au score de bonheur des différents pays. Plus les habitants d’un pays se sentent libres, plus ils sont heureux.

Effectuons la même analyse pour le PIB par habitant, l’espérance de vie et le soutien social :

On peut encore une fois observer une corrélation positive entre ces derniers facteurs et le score de bonheur.

Concernant le facteur de confiance en le gouvernement, nous avons été surpris de constater à première vue une corrélation négative : des habitants en accord avec leur régime politique ne seraient pas plus heureux qu’une population soumise à une dictature ? Cela ne fait pas beaucoup de sens, ainsi nous nous sommes rendus compte que certains jeux de données comprennaient non pas le facteur “Confiance dans le gouvernement” mais “Perception de corruption”. Nous avons alors harmonisé toutes les données pour construire la visualisation suivante :

On constate bien que plus les habitants ressentent de la corruption dans leur pays, moins ils sont heureux. Autrement dit, plus les habitants ont confiance en leur gouvernement, plus ils sont heureux.

Cependant, chacun des facteurs fournis dans ce dataset ne contribue par nécessairement grandement au score de bonheur.

En effet, voici le graphique de corrélation obtenu pour le facteur “Générosité” :

On constate cette fois-ci, et à l’inverse des graphes précédemment étudiés, que les valeurs sont relativement éparpillées et ne permettent pas d’établir une corrélation entre la générosité et le score de bonheur.
Ce facteur sont donc a priori moins impactants sur les variations de score entre les différents pays.

2. La corrélation entre les différents facteurs proposés dans un dataset supplémentaire et les scores de bonheur de l’année 2021

Le dataset spécifique à l’année 2021 prend en compte différents facteurs supplémentaires. En effet on y trouve : le temps d’ensoleillement annuel de la ville, son taux de pollution, le prix de l’eau, le niveau d’obésité du pays, le temps de travail moyen, le nombre d’activités en extérieur.

Le graphique qui suit montre la corrélation éventuelle entre le score de bonheur et le niveau de pollution de la ville. Les villes sont rassemblées par régions du monde.

On constate une corrélation assez claire entre les deux facteurs. Plus le niveau de pollution est faible plus le score de bonheur est élevé. Le niveau de pollution semble donc être un facteur impactant le score de bonheur.

III) Analyse géographique : Y’a-t-il des régions du monde moins heureuses que d’autres ?

Dans cette partie, le but est de déterminer si le bonheur a des préférences géographiques, et d’identifier les critères qui rendent les populations de régions spécifiques plus heureuses que les autres.

Les visualisations réalisées

  1. Un boxplot qui indique la distribution des scores de bonheur de chaque région

  2. Une carte du monde colorée par pays en fonction du score de bonheur (avec leaflet)

  3. Faire des scatterplots pour les différents critères en fonction du niveau de bonheur par région (moyenne sur toutes les années ou évolution dans le temps ?)

La distribution des scores de bonheur de chaque région chaque année

La visualisation du boxplot nous permet de situer rapidement les scores de bonheurs des pays d’une même région. On constate en un coup d’oeil que les 3 régions du monde les plus heureuses sont la Nouvelle Zélande, l’Amérique du Nord et l’Europe de l’Ouest.

Le bonheur dans le monde